[t:/]$ 지식_

스팍 마이그레이션 실패

2023/01/09

C와 파이썬으로 짠 하둡스트리밍 코드를 스팤 3.0으로 마이그레이션 하는 작업은 잠정 포기했다.

  1. 스팤에서 외부 코드를 사용하려면 pipe IPC를 통해서 가능하다.
  2. pipe IPC는 rdd 수준에서만 사용가능하다.
  3. 스팍의 기조는 어떻게든 rdd 프로그래밍 하지 말라는 것이다. 모든 최적화는 데이터프레임 중심으로 되어있다. 로우엔드 데이터 가공을 하지 말라고 한다.
  4. 데이터프레임 중심으로 데이터 처리를 할 때, 정교한 데이터 조작을 하려면 udf가 필수이다. 파이썬 udf는 데이터 직렬화를 수반하여 매우 느리다. 아니 속도(=비용) 때문에 이러고 있는데.. 따라서 pandas_udf가 거의 유일한 해법이다.
  5. pandas_udf 를 써보려고 하니 클러스터에 미설치다. 여기서 1차 좌절. 이렇게 저렇게 할 수는 있으나 여기서 다시 pipe로 보낸다고? 복잡하다. 복잡한 거 -> 어려운 거 -> 관리 못 하는 거 -> ...
  6. 스팍은 인간 중심에서 우아하지만 로우엔드 관점에서 블랙박스가 꽤 있다. 내가 어쩌지 못하는 부분들. 여전히 내가 짠 스팍 코드들이 돌고 있고 오늘도 스팍으로 뭔가 짜야하지만.. 영..
  7. 생각해보니 나는 데이터프레임 중심으로 사고를 잘 못 한다. 넘파이 판다스 행렬 계산 할 때마다 머리아프다. 내가 이렇게 일차원적인 사람이다 ㅠ.ㅠ




공유하기













[t:/] is not "technology - root". dawnsea, rss